OpenMendel系列-MendelIHT包
论文要点
现代GWAS中
n × p (n=samples, p=variants)
的矩阵往往需要数百Gb级别的磁盘空间进行压缩存储传统GWAS侧重于单位点测试(
SNP-by-SNP
), 其优缺点为:
优点:
简单
可解释性强
计算复杂度低
有效利用计算机内存
缺点:
假设不合理: 假设所有SNP都具有独立效应
错过效应值较低的因果SNP, 遗传力被低估
当p >> n
时, 通常假设与表型相关的variant数目(k)远小于n.WHY?
对全基因组所有变异进行多元回归的好处:统计效力强, 考虑SNP之间的相关性, 允许对相互作用进行建模, 前提是找到真正关联的SNP的情况下。
多元回归的实现的简约方法是通过对损失函数进行惩罚, LASSO是其中比较受欢迎的方法, 但其缺点也突出:
\(L_1\)正则倾向于将参数缩小到0;
必须调整
λ
以达到给定模型大小;λ
的确定要通过交叉验证, 计算代价高;最重要的, 惩罚导致的收缩留下了许多无法解释的特征方差, 引入假阳性。
迭代硬阈值法(iterative hard thresholding,
IHT
)可以有效降低假阳性